DiT架构

豆包AI视频模型

豆包AI视频模型包括PixelDance和Seaweed两款工具，分别基于DiT和Transformer架构。PixelDance擅长处理复杂指令和多主体互动，适合制作情节丰富的短片；Seaweed支持多分辨率输出，生成高质量、高逼真的视频，适用于商业领域。两者均提供多样化的风格选择和输出格式，满足不同场景需求。 ---

AI项目与工具 2025年06月12日 45 点赞 0 评论 661 浏览

Ruyi

Ruyi是一款基于DiT架构的图生视频大模型，支持多分辨率和多时长的视频生成，具有首帧、首尾帧控制、运动幅度调整及镜头方向控制等功能。它通过Casual VAE模块和Diffusion Transformer实现视频数据的压缩与生成，旨在降低动漫和游戏内容的开发周期和成本。目前，Ruyi-Mini-7B版本已开源。

AI项目与工具 2025年06月12日 17 点赞 0 评论 542 浏览

万相首尾帧模型

万相首尾帧模型（Wan2.1-FLF2V-14B）是一款开源视频生成工具，基于DiT架构和交叉注意力机制，可根据用户提供的首帧和尾帧图像生成高质量、流畅的过渡视频。支持多种风格和特效，适用于创意视频制作、影视特效、广告营销等多个场景。模型具备细节复刻、动作自然、指令控制等功能，且提供GitHub和HuggingFace开源资源供用户使用。

AI项目与工具 2025年06月11日 100 点赞 0 评论 797 浏览

Mureka Ai

一款AI音乐商用创作平台，Mureka Ai集成了音乐生成、编辑和版权交易功能。

Ai语音工具 2025年06月05日 11 点赞 0 评论 683 浏览

PixArt-Σ是一款基于扩散Transformer架构（DiT）的文本生成图像模型，专为生成高达4K分辨率的高质量图像而设计。该模型通过整合高级元素并采用从弱到强的训练方法，不仅提升了生成图像的保真度，还增强了图像与文本提示之间的对齐效果。PixArt-Σ的生成图像在美学质量上可媲美当前顶级的文本到图像产品，并且在遵循文本提示方面表现出色。主要功能包括4K分辨率图像生成、高保真转换、高效率训练和

AI项目与工具 2024年01月01日 82 点赞 0 评论 880 浏览

Open

Open-Sora是一个开源视频生成模型，基于DiT架构，通过三个阶段的训练（大规模图像预训练、大规模视频预训练和高质量视频数据微调），生成与文本描述相符的视频内容。该模型包括预训练的VAE、文本编码器和STDiT（Spatial-Temporal Diffusion Transformer）核心组件，利用空间-时间注意力机制和交叉注意力模块实现视频生成。项目旨在提供全面的视频生成模型训练过程，供

AI项目与工具 2024年01月01日 97 点赞 0 评论 579 浏览

Etna

是由七火山科技开发的一个平...

Ai视频生成 2026年06月27日 0 点赞 0 评论 725 浏览

DiT架构

首页

DiT架构

列表

默认

浏览次数

发布日期

豆包AI视频模型

Ruyi

万相首尾帧模型

Mureka Ai

PixArt

Open

Etna

DiT架构 首页 DiT架构

列表 默认 浏览次数 发布日期

豆包AI视频模型

Ruyi

万相首尾帧模型

Mureka Ai

PixArt

Open

Etna

DiT架构

首页

DiT架构

列表

默认

浏览次数

发布日期